Explorando el diseño de retropropagación de recompensa para Flow Matching
Descubre FlowBP, un nuevo marco que optimiza la retropropagación de recompensa en modelos de Flow Matching, mejorando la alineación sin saturar la memoria.
Descubre FlowBP, un nuevo marco que optimiza la retropropagación de recompensa en modelos de Flow Matching, mejorando la alineación sin saturar la memoria.